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GehorangepaBte Qualitatsbeurteilung von Audiotestsignalen 

Bei einemVerfahren zur Qualitatsbeurteilung einesAu- 
diotestsignals, das durch Codierung und Decodierung 
von einem Audioreferenzsignal abgeleitet ist, findet ein 
Vergleich des Audiotestsignals mit dem Audioreferenzsi- 
gnal gewlssermaBen hinter der Gehorschnecke des 
menschlichen Ohrs statt. Alle Verdeckungseffekte sowie 
die Ubertragungsfunktion des Ohrs werden gleicherma- 
Ben auf das Audioreferenzsignal und das Audiotestsignal 
angewandt. Dazu wird das Audiotestsignal gemalS seiner 
spektralen Zusammensetzung mittels einer ersten Filter- 
bank aus einander sich frequenzmalSig iiberlappenden, 
Spektralabschnitte definierenden Filtern mit voneinander 
abweichenden Filterfunktionen zerlegt, die Jewells auf- 
grund der Erregungskurven des menschlichen Ohrs bei 
dor jeweillgen Filtermittenfrequenz festgelegt sind. Das 
Audioreferenzsignal wird ebenfalls gemafS seiner spek- 
tralen Zusammensetzung mittels einer mit der ersten Fll- 
terbank iibereinstlmmenden zwelten Filterbank in Audio- 
referenzteilsignale zerlegt. AnschlieSend wird spektralab- 
schnittswelse eine Pegeldifferenz zwischen den zu glei- 
chen Spektralabschnitten gehorigen Audiotesttellsigna- 
len und Audloreferenzteilsignalen gebildet. Zur Qualitats- 
beurteilung des Audiotestsignals wird spektralabschnitts- 
welse eine Detektlonswahrscheinlichkelt fiir die Erfas- 
sung eines Codierungsfehlers des Audiotestsignals in 
dem betreffenden Spektralabschnitt aufgrund der jeweill- 
gen Pegeldifferenz bestimmt. 
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Beschreibung , 

r.n^nH """^ v"'^^ Erfindung bezieht sich auf die AudioCodiemng bzw. -Decodierung und insbesondere auf ein VerfJh- 
ren und eine Vomchtung zur gehorangepaBten QuaUtatsbeurteilung von Audiosignalen. 

Vt^^'?^^'" ^f^^'^^^P^'^ ^Sit^^ Codierverfahren seit einigen Jahren standardisiert sind (Kh. Brandenbuig und G 

Cassette ^CcVcC-^^ steagendem MaBe eingesetzt. Beispiele hierfur sind die digitale Kom- 

r»S^=,Tr. H R H " ?^«^^.<^°'"P^'=' Cassette), die Minidisk, der digitale terrestrische Rundfunk (DAB; DAB = 
^gital Audio Broadcasting) und die digitale Videodisk (DVD). Die von analogen tibertragungen bekannten St6nmgen 
t^ten bei der digitalen uncodierten Tonsignalubertragung in der Kegel nicht mehr auf. Die Mefitechnik kann sich a^f den 
<i.g,tal und umgekehrt beschranken. faUs keine Codierung der Tonsignale durchgefthrt wS^ 
JZ^ni^'Zrf T j^ehorangepaBter Codierverfahren konnen jedoch horbare Kunstprodukte oler ArteS^ 
auttreten, die in der analogen Tonsignalverarbeitung nicht aufgetreten sind 

r.2f^^'^ MeBwerte fur Verzerrungen, wie z. B. der Klirrfaktor oder der Signal-Rausch-Abstand, sind fur gehorange- 
paBte Codierverf^n nicht einsetzbar. Viele gehorangepaBt codierte Musiksignale weisen einen Signal-Rauscrib 
e^eh^lT "'^T ff "'"'"^ Unterschiede zum uncodierten Ori'ginalsignal wahrnehmb^wtdef Um- 

gekehrt kann ein Signal-Rausch-Abstand von mehr als 40 dB beieits zu deutlich horbailn Stdrungen flihren 

Inden letzten Jahren wurden verschiedene gehorangepaBte MeBverfahren vorgestellt, von denen das NMR-Verfahren 
= Noise to Mask Ratio) envahnt sei (Kh. Brandenbuig und Th. Sporer. "NMR" und "Masking Hag-^aluItiW 
quahty using perceptual criteria. In Proceedings of the 11th International Conference of the AES, Portlfnd, 1992) 
ter vlZTl"^^ NMR-Verfahrens wird jeweils eine diskrete Fourier-Transformation der llge 1()24 un- 

und STeln ^""^ Hann-Fensters nut emer Fortschrittsgeschwindigkeit von 512 Abtastwerten fur ein OrfgindsTgnal 
nen SeSr.SSffi ""t^ Originalsignal und einem verarbeiteten Signal berechnet. Die daraus erhSe 

F^ir ?^ "r""^^" '° Frequenzbandem, deren Breite naherungsweise den von Zwicker voigeschlagenen 

V^^^^^uF^!^ en^pnchU zusammengefaBt, wonach die Energiedichte jedes Frequenzbandes bestimmt wi^d Aus Sen 
Energie^chten des Onginalsignals wird unter Beriicksichtigung der Verdeckun/innerhalb der jeweiligen Fit uenz- 
gruppe, der Verdeckung zwischen den Frequenzgruppen und der Nachverdeckung fur jedes Frequenzband eine^Se 
Ruhe^S;!^h" ^'h "^"'^ ou" ™^ Energiedichte des Differenzsig^s ^^glhen Se 

Sn^!5^ht > f . aTk"T^^'^!I! ^^'^ "^"^^ voUstandig beriicksichtigt. da die Eingangssignalf des MeBverfa^! 
Z^nff tifT r ? 1°^ '"!f>t^r ^^^'^Hf ^^rt konnen. da iibUcherweise ein nlrer von AudiosigSen dnTn 

Zugnflf auf die Lautstarke des Musik- oder Tonstiicks hat, das er horen mochte 

Es hat sich herausgestellt, daB das NMR-Verfahren beispielsweise bei einer typischen Abtastrate von 44 1 kHz eine 
""^ '"h Zeitauflosung von ca. 23 ms besitzt. ofe Frequenzauflosung ist b; n^g" 

SSn ^Xf."? -^"f Zeitauflosung bei hohen Frequenzen zu gering ist. T^tzdem reagiert das iSver- 

fahren auf viele Zeiteffekte gut. Ist erne Folge von Anschlagen. wie z. B. Trommelschlagen, niedrig genug dann hat der 
Block vor dem Anschiag noch eine sehr kleine Energie, wodurch ein eventueU auftretendes Vorecho irau erS^nt wer- 
nen ^Te^.tS' Jo^'^l^lttsgeschwindigkeit von 11,6 ms fiir das Analysefenster ermogUcht es, viele Vo^hos rir^n- 
nerh Liegt das Analysefenster allerdings ungiinstig, so kann ein ^fcrecho unerkannt bleiben 

• ^fu " i!"^ u.^ zwischen einer Verdeckung durch tonale Signale und durch Rauschen wird bei dem NMR-Verfahren 
mcht berucksichtigt. Die verwendeten Verdeckungskurven sind aus subjektiven Hortests gewonnenrSangf^e 
Die Frequenzgruppen sit^en dabei an festen Positionen innerhalb des Fr^quenzspektrums, wohingegenTa^SS 
quenzgruppen dynamisch urn einzelne besonders hervorstechende Schallereigni^e im S;ektn,m bfldet Lhtiger ^v^e 
daher eine dynamische Anordnung um die Energiedichteschwerpunkte. Durch die Breite der festen FrequenzZpoenllt 
rruone rf n ' V ^T''"'^"''; ob beispielsweise ein Sinus-Signal in der Mitte oder an einer Hank^ eLi^uenz 
gruppe hegt Die \ferdeckungs- oder Maskierungskurve geht daher vom kritischsten FaU, d h der gerinesten ^rdek 
kung, aus. Das NMR-Verfahren zeigt deshalb manchmal Storungen an, die von einem M;nschen nfcrgS w^Sen 

ein^M'^^'^'fi^"^^"'" f ""^^ Fr^uenzauflosung von ledigUch 43 Hz stellt insbesondere im unteren Frequenzbereich 
Z?Xf Zu^ gehorangepaBte Quahtatsbeurteilung von Audiosignalen mittels des NMR-Verfahre^.s dar Dies 

Ztch^c^Zt '^^^^^ der Beurteilung von tiefen Sprachsignalen, wie sie beispielsweise ein mannUcher 

^sprecher erzeugt, oder von Tonen sehr Uefer Instrumente, wie z. B. eine BaBposaune aus 

und Wnrtrern?'!ir'''''^p' J' ^°:"^g«"den Mndung werden im nachfolgenden'einige wichtige psychoakustische 
und kogmtive Grundlagen fur die gehorangepaBte QuaUtatsbeurteilung von Audiosignalen genannt Der fUr die eehoran- 
friff^-mik ™' r'pfJ:''?"' ""''^^^'^ ^^^"^^^^ Verdeckung. welche in Anlehnung an dtn ^gSenX 
durch T^l^T^ of Maskierung genannt wird. Ein leises einzeln auftretendes wahmehmbLs SchaUereignis wird 
melJwSiire^omnf ^ n^^^^^ T^^''^'' !f "^^^ ^" Anwesenheit des zweiten, lauteren Schallereignisses nicht 
Sir Te^Jf HecTTH ^7^"='^""^ ^^J^^l von der zeitUchen als auch der spektralen Struktur def Maskierers 

(d. h. des verdeckenden Signals) und dem verdeckten Signal abhangig 

ein^!?' J l°uf^ Verdeckung von Tonen durch Schmalbandrauschsignale 1, 2, 3 bei 250 Hz, 1 .000 Hz und 4 000 Hz und 
einem Schalldruckpegel von 60 dB veranschaulichen. Fig. 1 ist aus E. Zwicker und H. FasU. Zur Abhangigkekder Nach 
verdeckung von Stonmpulsdauer, Acustica, Bd. 26, S. 78-82, 1972, entnommen ngigKeit aer iNacn 

na?fflL?rr*' hf "^^"^ eine Filterbank bestehend aus einer groBen Zahl einander uberlappender Band- 

F?fm Ln.? H F « '^^J'^''!}^^^'^-' ^'^'-^ «ber der Frequenz ist nicht konstant. InsbesondeS^ist bei tiefen 

Frequenzen die Frequenzauflosung deudich besser als bei hohen Frequenzen. Betrachtet man den kleinsten wahmehm- 
baren Frequenzunterschied, so betragt dieser unterhalb von ca. 500Hz etwa 3 Hz und steigt oberhalb von 500 iS pr" 
portional zur Frequenz oder M.Uenfrequenz der Frequenzgruppen an. Ordnet man die kleinsten wahmehmba^n UnteT- 
menShH.'h r der Frequenzskala an, so erhalt man 640 wahmehmbare Stufen. Eine Frequenzsk^a^die der 

menschhchen Frequenzempfindung angepaBt ist, stellt die Bark-Skala dar. Sie unterteilt den gesamten Horbereich bis ca 
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1 5,5 kHz in 24 Abschnitte. 

Aufgrund der Uberlappung von Filtern endlicher Steilheit werden leise Tonsignale in der Nachbarschaft von lauten 
Tonsignalen maskiert. So werden in Fig. 1 alle unterhalb der eingezeichneten Schmalbandrauschkurven 1, 2, 3 vorhan- 
denen Sinustonsignale, welche im Spektrum als einzelne Linie dargestellt werden, verdeckt, wodurch sie nicht horbar 
sind. 5 

Die Rankensteilheit der einzelnen Verdeckungsfilter der modellmaBig angenommenen Filterbank im menschlichen 
Ohr ist femer vom Schalldruckpegel des gehorten Signals und in geringem MaBe von der Mittenfrequenz des jeweiligen 
Bandfilters abhangig. Die maximale Verdeckung hangt von der Struktur des Maskierers ab und betragt bei der Verdek- 
kung durch Rauschen ca. -5 dB. Bei der Verdeckung durch Sinustone ist die maximale Verdeckung deutlich geringer und 
betragt abhangig von der Mittenfrequenz -14 bis -35 dB (siehe in M.R. Schroeder, B.S. Atal und J.L. Hall, Optimizing lo 
digital speech coders by exploiting masking properties of the human ear. The Journal of the Acoustic Society of America, 
Bd. 66 (Nr. 6), S. 1647-1652, Dezember 1979). 

Der zweite wichtige Eflfekt ist die Verdeckung im Zeitbereich, zu deren Verstandnis Fig. 2 beitragen sell. Unmittelbar 
nach, aber auch unmittelbar vor einern lauten Schallereignis werden leisere Schallereignisse nicht wahigenommen. Die 
zeitliche Verdeckung ist stark von der Struktur und Dauer des Maskierers abhangig (siehe H. Fasti, Mithorschwellen als 15 
~ MaB fiir das zeitliche und spektrale Auflosungsvermogen des Gehors. Dissertation, Fakultat fiir Maschinenwesen und 
Elektrotechnik der Technischen Universitat Munchen, Munchen, Mai 1974). Die Nachverdeckung kann sich insbeson- 
dere bis zu 100 ms erstrecken. Die groBte Empfindlichkeit und damit die kurzeste Verdeckung tritt bei der Maskierung 
von Rauschen durch GauB-Impulse auf. Hierbei betragen die Vor- und die Nachverdeckung lediglich etwa 2 ms. 

Bei geniigend groBem Abstand vom Maskierer bzw. von 4 in Fig. 1 gehen die Maskierungskurven in eine Ruhehor- 20 

- schwelle 5 uber. Am Beginn und Ende eines Verdeckungssignals gehen die Maskierungskurven der Vorverdeckung 6 
■ bzw. der Nachverdeckung 7 in eine gleichzeitige Verdeckung 8 iiber. 

Die Vorverdeckung wird diarch die unterschiedlich schnelle Verarbeitung von Signalen auf dem Weg vom Ohr zum 
Gehim bzw. im Gehim erklart. GroBe Reize, d. h. laute Schallereignisse oder Schallereignisse mit einem hohen Schall- 
~ druckpegel (SPL; SPL = Sound Pressure Level), werden schneller weitergegeben als kleine. Ein lautes Schallereignis 25 
kann deshalb ein zeittich davorliegendes leiseres Schallereignis gewissermaBen "uberholen" und damit verdecken. 

Die Nachverdeckung entspricht einer "Erholungszeit" der Schalbrezeptoren und der Reizleitung, wobei insbesondere 
der Abbau von Botenstoffen an den Nervensynapsen zu nennen ware. 

Das VerdeckungsmaB oder der Grad der Verdeckung hangt von der zeitlichen und spektralen Struktur des Maskierers, 
d. h. des maskierenden Signals, ab . Die Vorverdeckung ist bei impulsartigen Maskierem am kiirzesten (etwa 1 ,5 ms) und 30 
bei Rauschsignalen deutlich langer (bis zu 15 ms). Die Nachverdeckung erreicht nach 100 ms die Ruhehorschwelle. 
Uber die genaue Form der Nachverdeckungskurve linden sich unterschiedliche Aussagen in der Literatuc So kann im 
Einzelfall die Nachverdeckung bei Rauschsignalen zwischen 15 bis 40 ms diflferieren. Die oben angegebenen Werte stel- 
len jeweils Minimalwerte fiir Rauschen dar. Neue Untersuchungen mit GauB-Impulsen als Maskierer zeigen, daB fiir sol- 
che Signale auch die Nachverdeckung im Bereich von 1 ,5 ms liegt (J. Spille, Messung der Vor- und Nachverdeckung bei 35 
Impulsen unter kritischen Bedingungen, Internal Report, Thomson Consumer Electronics, Hannover. 1992). Werden so- 
wohl Maskierer als auch Storsignale mittels eines Tiefpasses bandbegrenzt, so verlangem sich sowohl die Vor- als auch 
die Nachverdeckung. 

Die zeitliche Verdeckung spielt bei der Beurteilung von Audiocodierverfahren eine wichtige Rolle. Wird, wie es mei- 
stens der Fall ist, blockweise gearbeitet, und befinden sich Anschlage im Block, so entstehen unter Umstanden Storungen 40 
vor dem Anschlag, die uber dem Nutzsignalpegel liegen. Diese Storungen werden eventuell durch eine Vorverdeckuiig 
maskiert. Ist diese Stoning jedoch nicht maskiert, so nennt man den entstehenden Eflfekt "Vorecho". Vorechos werden in 
der Regel nicht getrennt vom Anschlag wahrgenommen, sondem als eine tonmaBige Verfarbung des Anschlags; 

Die Ruhehorschwelle (4 in Fig. 1) ergibt sich durch den Frequenzgang von AuBen- und Mittelohr und durch die Uber- 
lagerung der ins Innenohr gelangten Schallsignale mit dem beispielsweise durch die Blutstromung verursachten Grund- 45 
rauschen. Dieses Grundrauschen und die im Frequenzbereich nicht konstante Ruhehorschwelle verdecken dadurch sehr 
leise Schallereignisse. Aus Fig. 1 ist insbesondere zu sehen, daB ein gutes Gehor etwa einen Frequenzbereich von 20 Hz 
bis 18 kHz erfassen kann. 

Die subjektiv empfundene Lautheit eines Signals hangt sehr stark von seiner spektralen und zeitlichen Zusanunenset- 
zung ab. Anteile eines Signals konnen andere Anteile desselben Signals verdecken, derart, daB diese nicht mehr zum 50 
Horeindruck beitragen. Signale nahe der Mithorschwelle (d. h. gerade eben noch wahmehmbare Signale) werden als lei- 
ser empfunden als es ihrem tatsachlichen Schalldruckpegel entspricht. Dieser Efifekt wird als "Drosselung" bezeichnet. 

• Femer spielen kognitive Eflfekte bei der Beurteilung von Audiosignalen eine Rolle. Insbesondere hat sich eine funf- 
stufige sog. "Impairmentskala" (Impairment = Beeintrachtigung) verbreitet. Die Aufgabe von menschlichen Testperso- 
nen ist es, in einem Doppelblindtest Bewertungen fur zwei Signale abzugeben, von denen eines das Originalsignal ist, 55 

■ das nicht codiert und decodiert worden ist, wahrend das andere Signal ein nach einer Codierung und darauflfolgenden De- 

- codierung gewonnenes Signal ist. Bei dem Hortest existieren drei Stimuli A, B, C, wobei das Signal A immer das Refe- 
renzsignal ist. Eine Person, die den Hortest durchfuhrt, veigleicht immer die Signale B und C mit A. Das uncodierte Si- 
gnal wird dabei als Referenzsignal bezeichnet, wahrend das durch Codierung und Decodierung von dem Referenzsignal 
abgeleitete Signal als Testsignal bezeichnet wird. Bei der Bewertung von deutlich horbaren Storungen spielen also nicht 60 
nur psychoakustische Effekte sondem auch kognitive oder subjektive Eflfekte eine Rolle. 

Bei der Beurteilung von Audiosignalen durch menschliche Horer haben kognitive Effekte erhebliche Auswirkungen 
auf die Bewertung mittels der Impairmentskala. Einzelne sehr starke Storungen werden von vielen Testpersonen vielfach 
als weniger storend als dauerhafl vorhandene Storungen empfunden. Ab einer bestimmten Anzahl solcher starken Sto- 
rungen dominieren sie allerdings doch den Qualitatseindnick. Systematische Untersuchungen hierzu sind aus der Litera- 65 
tur nicht bekannt. 

Obwohl sich bei psychoakusdschen Test die Wahmehmungsschwellen verschiedener Horer kaum unterscheiden, wer- 
den verschiedene Artefakte von verschiedenen Testpersonen als unterschiedlich schwerwiegend empfunden. Wahrend 
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manche Testpersonen Beschrankungen der Bandbreite als weniger storend empfinden als Rauschmodulationen bei hoben ' 
rrequenzen, ist dies bei anderen Testpersonen genau umgekehrt. » 

Die Bewertungsskalen verschiedener Testpersonen unterscheiden sich deutlich. Viele Horer tendieren dazu, deutlich 
horbare Storungen mit der Note 1 ("sehr storend") zu bewerten, wahrend sie mitUere Noten kaum vergeben Andere H6- 
5 rer vergeben haufig mitUere Noten (Thomas Sporer, Evaluating smaU impairments with the mean opinion scale - reliable 
or just a guess? In lOlnd AES-Convention, Los Angeles, 1996, Preprint). 

Die DE 44 37 287 C2 offenbart ein Verfahren zur Messung der Erhaltung stereophoner Audiosignale und Verfahren 
zur Erkennung gemeinsam codierter stereophoner Audiosignale. Ein zu testendes Signal mit zwei Stereokanalen wird 
durch Codierung und anschlieBende Decodierung eines Referenzsignals gebildet. Sowohl das zu testende Signal als auch 
10 das Referenzsignal werden in den Frequenzbereich transformiert. Fiir jedes Teilband des Referenzsignals und fur jedes 
Teilband des zu testenden Signals werden SignalkenngroBen fiir das Referenzsignal und fur das zu testende Signal gebil- 
det. Die jeweils zu demselben Teilband gehorenden SignalkenngroBen werden miteinander verglichen. Aus diesem Ver- 
gleich wird auf die Erhaltung stereophoner Audiosignaleigenschaften oder die Storung des Stereoklangbilds bei der ver- 
wendeten Codierungstechmk geschlossen. Subjektive Einfliisse auf das Referenzsignal und auf das zu testende Signal 
15 aufgrund der Ubertragungseigenschaften des menschUchen Ohrs werden in dieser Schrift nicht beriicksichtigt 

Die Aufgabe der vorUegenden Erfindung besteht darin, ein Verfahren und eine Vorrichtung fiir eine gehorangepaBte 
QuaUtatsbeurteilung von Audiosignalen zu schaffen, welche durch eine verbesserte zeitUche Auflosung eine bessere Mo- 
dellierung der Vorgange im menschUchen Gehor erreichen, um von subjektiven Einflussen unabhangiger zu werden 
Diese Aufgabe wird durch ein Verfahren gemaB Anspruch 1 und durch eine Vorrichtung gerhaB Anspruch 18 gelost 
20 Der Erfindung liegt die Erkenntnis zugrunde, aUe nichtlinearen GehoreflFekte auf das Referenzsignal und das Testsi- 
gnal gleichermaBen zu simuUeren, und einen Vergleich zur QuaUtatsbeurteilung des Testsignals sozusagen hinter dem 
Ohr, d. h. am Ubergang der Gehorschnecke zum Gehomerv, durchzufuhren. Die gehorangepaBte QuaUtatsbeurteilung 
von Audiosignalen arbeitet also mittels eines Vergleichs in dem Gehorschneckenbereich ("Cochlear Domain") Es wer- 
den also die Erregungen im Ohr durch das Testsignal bzw. durch das Referenzsignal vergUchen. Dazu werden sowohl das 
25 Audioreferenzsignal als auch das Audiotestsignal durch eine Filterbank in ihre spektralen Zusammensetzungen zerlegt 
Durch eine groBe Anzahl von FUtem. welche sich frequenzmaBig iiberlappen, wird eine ausreichende sowohl zeiaiche 
aus auch frequenzmaBige Auflosung sichergesteUt. Die GehoreflFekte des Ohrs werden derart beriicksichtigt, daB jedes 
einzelne Filter eme eigene Form aufweist, die anhand der AuBen- und Mittelohr-tibertragungsfiinktion und des intemen 
Rauschens un Ohr, anhand der Mittenfrequenz f„ eines Filters und anhand des Schalldruckpegels L des zu beurteilenden 
30 Audiosignals bestimmt wird. Zur Reduzierung der Komplexitat und des Rechenaufwands wird fiir jede Filteriibertra- 
gungsfunktion eine Betrachtung des schUmmstmogUchen Falles durchgefuhrt, wodurch eine sog. Worst-Case-Erre- 
gungskurve fiir verschiedene Schalldruckpegel bei der jeweiUgen Mittenfrequenz jedes Filters fiir dasselbe bestimmt 
wird. 

Zur weiteren Reduzierung des Rechenaufwands werden Telle der Filterbank mit verringerter Abtastrate berechnet, 
35 wodurch der zu verarbeitende Datenstrom entscheidend reduziert wird. Aus KompatibiUtatsgriinden mit der schnellen 
Founer-Transformation oder Abwandlungen derselben, welche durch die Filterbank ausgefiihrt wird, werden ledigUch 
Abtastraten verwendet, die sich durch den Quotienten aus der Ursprungsabtastrate und einer Potenz von 2 (d h das 1/2- 
das 1/4-, das 1/8-, das 1/1 6-, das 1/32-fache der urspriingUchen Abtast- bzw. Datenrate) ei^eben. So wird immer eine ein- 
heitUche Fensteriange der verschiedenen Filtergruppen, die mit einer gleichen Abtastfrequenz arbeiten, erreicht 
40 SchUeBUch ist jedem Filter der Filterbank eine ModelUerungseinrichtung zum ModelUeren der Vor- und Nachverdek- 
kung nachgeschaltet. Die ModeUierung der Vor- und Nachverdeckung verringert die erforderUche Bandbreite so weit 
daB je nach Filter eine weitere Reduktion der Abtastrate, d. h. eine Unterabtastung, mogUch ist. Die resultierende Abtast- 
rate in alien Filtem entspricht somit bei einem bevorzugten Ausfiihrungsbeispiel der Erfindung einem zweiunddreiBig- 
stel der Eingangsdatenrate. Diese gemeinsame Abtastrate fiir alle Filterbanke ist fiir die weitere Verarbeitung auBerst 
45 vorteilhaft und notig. 

Nach der Filterbank erfolgt die Bestimmung der Verzogerung der Ausgangssignale der einzelnen Filter, um eventueU 
vorhandene zeitUche Unsynchronitaten bei der Berechnung des Audiotestsignals bzw. des Audioreferenzsienals auszu- 
gleichen. 

Der Vergleich des Audioreferenzsignals mit dem Audiotestsignal wird, wie es erwahnt wurde, gewissermaBen "hinter 
50 der Gehorschnecke" durchgefiihrt. Die Pegeldififerenzen zwischen einem Ausgangssignal eines Filters der Filterbank fiir 
das Audiotestsignal und dem Ausgangssignal des entsprechenden Filters der Filterbank fur das Audioreferenzsignal wird 
erfaBt und in eine DetektionswahrscheinUchkeit abgebildet, die beriicksichtigt, ob eine Pegeldiflferenz ausreichend groB 
ist^um von dem Gehim als solche erkannt zu werden. Die gehorangepaBte QuaUtatsbeurteilung gemaB der vorUegenden 
Erfindung eriaubt eme gemeinschafdiche Auswertung von Pegeldififerenzen mehrerer aneinander angrenzender Filter 
55 um em MaB fiir eine subjektiv empfundene Stoning in der Bandbreite, die durch die gemeinsam ausgewerteten Filter de- 
finiert ist, zu erreichen. Die Bandbreite wird, um einen dem Ohr angepaBten subjektiven Eindruck zu erhalten, kleiner 
oder gleich einer psychoakustischen Frequenzgruppe sein. 

Bevorzugte Ausfiihrungsbeispiele der vorUegenden Erfindung werden nachfolgend bezugnehmend auf die bei Uegen- 
den Zeichnungen detailUerter erlautert. Es zeigen: 
60 Fig. 1 eine DarsteUung der Verdeckung von Tonen durch Schmalbandrauschsignale bei verschiedenen Frequenzen- 
Fig. 2 das Prinzip der Verdeckung im Zeitbereich; 
Fig. 3 ein aUgemeines Blockdiagramm eines Audio-MeBsystems; 

Fig. 4 ein Blockdiagramm der Vorrichtung zur gehorangepaBten QuaUtatsbeurteilung von Audiosignalen eemaB der 
vorUegenden Erfindung; 
65 Fig. 5 ein Blockdiagramm einer Filterbank aus Fig, 4; 

Fig. 6 eine beispielhafte DarsteUung zur VerdeutUchung der Konstruktion eines Verdeckungsfilters; 
Fig. 7 eine DarsteUung zur VerdeutUchung der Konstruktion eines Verdeckungsfilters unter Beriicksichtigung der Au- 
Ben- und Mittelohr-UbertragungsfunkUon und des internen Rauschens; 
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Fig. 8 ein detailliertes Blockdiagramm der Vorrichtung zur gehorangepaBten Qualitalsbeurteilung von Audiosignalen 
gemafi der vorliegenden Erfindung; 

Fig. 9 eine Darstellung beispielhafter Filterkurven mit verschiedenen Abtastraten; . 

Fig. 10 eine Darstellung der Schwellenfunktion zur Abbildung von Pegeldifferenzen in einem Spektralabschnitt auf 
die Detektionswahrscheinlichkeit; 

Fig. 11 eine graphische Darstellung der lokalen Detektionswahrscheinlichkeit eines beispielhaften Audiotestsignals; 
und 

Fig. 12 eine graphische Darstellung der Frequenzgruppen-Detektionswahrscheinlichkeit des beispielhaften Audiotest- 
signals, das in Fig. 11 verwendet wurde. 

Fig. 3 zeigt ein allgemeines Blockdiagramm eines Audio-MeBsystems, das in seinen Grundziigen der vorliegenden 
Erfindung entspricht. Einem MeBverfahren wird einerseits ein unverarbeitetes Ausgangssignal einer Tonsignalquelle 
(Referenz) und andererseits ein aus einer tJbertragungsstrecke, wie z. B. einer Audio-Codierer/Decodierer-Einrichtung 
(oder "Audio-Codec"), kommendes, zu bewertendes Signal (Test) zugefiihrt. Das MeBverfahren berechnet daraus ver- 
schiedene KenngroBen, die die Qualitat des Testsignals im Vergleich zum Referenzsignal beschreiben. 

Eine Grundidee beim erfindungsgemaBen Verfahren zur Qualitatsbeurteilung von Audiosignalen besteht darin, daB 
eine genaue gehorangepaBte Analyse nur moglich ist, wenn gleichzeitig die zeitliche und die spektrale Auflosung mog- 
lichst hoch sind. Bei alien bekannten MeBverfahren ist entweder die zeitliche Auflosung durch die Verwendung einer dis- 
kreten Fourier-Transformation (DFT) sehr beschrankt (Blocklange in der Regel 10,67 ms bis 21,33 ms) oder die spek- 
trale Auflosung wurde durch eine zu kleine Anzahl von Analysekanalen zu stark verringert. Das erfindungsgemaBe Ver- 
fahren zur Qualitatsbeurteilung von Audiosignalen liefert eine hohe Anzahl (241) von Analysekanalen bei einer hohen 
zeitlichen Auflosung von 0,67 ms. 

Fig. 4 zeigt ein Blockdiagramm der Vorrichtung zur gehorangepaBten Qualitatsbeurteilung von Audiosignalen gemaB 
der vorliegenden Erfindung, die das Verfahren der vorliegenden Erfindung ausfuhrt. Das Verfahren zur gehorangepaBten 
Qualitatsbeurteilung von Audiosignalen oder zur objektiven Audiosignalbewertung (OASE; OASE = Objectiv Audio Si- 
gnal Evaluation) erzeugt zunachst eine interne Darstellung eines Audioreferenzsignals 12 bzw. eines Audiotestsignals 
14. Zu diesem Zweck wird das Audioreferenzsignal 12 in eine erste Filterbank 16 eingespeist, welche das Audiorefe- 
renzsignal gemaB seiner spektralen Zusammensetzung in Audioreferenzteilsignale 18 zerlegt. Analog dazu wird das Au- 
diotestsignal 14 in eine zweite Filterbank 20 eingespeist, welche wiederum aus dem Audiotestsignal 14 gemaB der spek- 
tralen Zusammensetzung desselben eine Mehrzahl von Audiotestteilsignalen 22 erzeugt. Eine erste Modellierungsein- 
richtung 24 bzw. eine zweite Modellierungseinrichtung 26 zur Modellierung der zeitlichen Verdeckung modelliert den 
EinfluB der bereits beschriebenen Verdeckung im Zeitbereich bezugUch jedes Audioreferenzteilsignals 18 bzw. jedes Au- 
diotestteilsignals 22. 

An dieser Stelle sei angemerkt, daB die gehorangepaBte Qualitatsbeurteilung von Audiosignalen gemaB der vorliegen- 
den Erfindung ebenfalls durch eine einzige Filterbank oder durch eine einzige Modellierungseinrichtung zur Modellie- 
rung der zeitlichen Verdeckung ausgefuhrt werden kann. Lediglich aus Darstellungsgriinden sind fur das Audioreferenz- 
signal 12 bzw. fvir das Audiotestsignal 14 jeweils eigene Einrichtungen gezeichnet. Wenn zur spektralen Zerlegung des 
Audioreferenzsignals und des Audiotestsignals eine einzige Filterbank verwendet wird, muB beispielsweise wahrend der 
Verarbeitung des Audiotestsignals die bereits vorher ermittelte spektrale Zusammensetzung des Audioreferenzsignals 
zwischengespeichert werden konnen. 

Die beziiglich der zeitlichen Verdeckung modellierten Audioreferenzteilsignale 18 bzw. Audiotestteilsignale 22 wer- 
den einer Auswertungseinrichtung 28 zugefiihrt, welche eine nachfolgend beschriebene Detektion und Gewichtung der 
erhaltenen Ergebnisse durchfiihrt. Die Auswertungseinrichtung 28 gibt eines oder eine Mehrzahl von Modellausgangs- 
werten MAWl . . . MAWn aus, die auf verschiedene Arten und Weisen Unterschiede zwischen dem Audioreferenzsignal 
12 und dem von dem Audioreferenzsignal 12 durch Codierung und Decodierung abgeleiteten Audiotestsignal 14 darstel- 
len. Wie es nachfolgend beschrieben wird, ermoglichen die Modellausgangswerte MAWl . . . MAWn eine frequenz- und 
zeitselektive Qualitatsbeurteilung des Audiotestsignals 14. 

Die interne Darstellung des Audioreferenzsignals 12 bzw. des Audiotestsignals 14, die der Auswertung in der Auswer- 
tungseinrichtung 28 zugrunde Uegen, entsprechen den Informationen, die vom Ohr iiber den Homerv dem menschlichen 
"Gehim ubermittelt werden. Durch die Ausgabe mehrerer Modellausgangswerte MAWl . . . MAWn ist eine detailliertere 
Aussage uber den qualitativen und auch subjektiven Eindruck moglich, als wenn lediglich ein einzelner Modellaus- 
gangswert ausgegeben werden wurde. Insbesondere subjektive Unterschiede in der Gewichtung verschiedener Artefakte 
konnen sich damit weniger storend auswirken. 

Fig. 5 zeigt den Aufbau der ersten Filterbank 16 bzw. der zweiten Filterbank 20, falls zwei getrennte Filterbanken ver- 
wendet werden. Falls lediglich eine Filterbank fur die Verarbeitung beider Signale in Kombination mit einer Zwischen- 
speicherung verwendet wird, stellt Fig. 5 den Aufbau der einzigen verwendeten Filterbank dar. In einen Signaleingang 
'40 wird ein in seine spekU^e Zusammensetzung zu zerlegendes Audiosignal eingegeben, um eine Mehrzahl von Teilsi- 
gnalen 18, 22 am Ausgang der Filterbank 16 bzw. 20 zu erhalten. Die Filterbank 16, 20 ist in eine Mehrzahl von Unter- 
filterbanken 42a bis 42f gegliedert. Das an dem Signaleingang 40 anliegende Signal lauft direkt in die erste Unterfilter- 
bank 42a. Um in die zweite Unterfilterbank 42b zu gelangen, wird das Signal mittels eines ersten TiefpaBfilters 44b ge- 
filtert und mittels einer ersten Dezimiereinrichtung 46 bearbeitet, damit das Ausgangssignal der Dezimiereinrichtung 46b 
eine Datenrate von 24 kHz besitzt. Die Dezimiereinrichtung 46 entfemt also jeden zweiten Wert des an dem Signalein- 
gang 40 anliegenden Datenstroms, um den Rechenaufwand und die zu verarbeitende Datenmenge der Filterbank wirk- 
sam zu halbieren. Das Ausgangssignal der ersten Dezimiereinrichtung 46b wird in die zweite Unterfilterbank einge- 
speist. Weiterhin wird dasselbe in ein zweites TiefpaBfilter 44c und in eine darauffolgende zweite Dezimiereinrichtung 
46c eingespeist, um die Datenrate desselben wieder zu halbieren. Die dann entstehende Datenrate beU-agt 12 kHz. Das 
Ausgangssignal der zweiten Dezimiereinrichtung 46c wird wiederum in die dritte Unterfilterbank 42c eingespeist. Auf 
ahnliche Weise werden die Eingangssignale fur die anderen Filterbanken 42d, 42e und 42f erzeugt, wie es in Fig. 5 dar- 
gestellt ist. Die Filterbank 16, 20 implementiert somit eine sogenannte Multirate-Struktur, da sie eine Mehrzahl von Un- 
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terfilterbanken 42a-42f aufweist, welche mil mehreren ("multi") jeweils unterschiedlichen Abtastraten ("rates") arbeiten " 

Jede Unterfilterbank 42a-42b setzt sich wiedenim aus einer Mehrzahl von BandpaBfiltem 48 zusammen Bei eine^ 
bevorzugten Ausfiihrungsbeispiel der vorliegenden Erfindung enthalt die Filterbank 16, 20 241 einzelne BandpaBfilter 
48, die in einem gleichmaBigen Raster auf der Bark-Skala angeordnet sind, wobei sich ihre Mittenfrequenzen urn 0 1 

5 Bark unterscheiden. Die Einheit Bark ist fur Fachleute auf dem Gebiet der Psychoakustik bekannt und beispieisweise in 
E. Zwicker, Psychoakustik, Springer- Verlag, BerUn Heidelberg New York, 1982, beschrieben. 

Fig. 9 zeigt einige beispielhafle Fiiterkurven mit den Abtastraten 3 kHz, 12 kHz und 48 kHz. Die linke Gruppe von 
Filterkurven in Fig. 9 entspricht der Abtastrate von 3 kHz, wahrend die mitUeie Kurve einer Abtastrale von 12 kHz ent- 
spricht und die rechte Gruppe fiir Abtastrate von 48 kHz gilt. 

) PrinzipieU ergibt sich die minimale Abtastrate fiir jedes einzelne BandpaBfilter 28 aus dem Punkt, an dem seine obere 
Flanke die Dampfiing -100 dB in Fig, 9 unterschreitet. Aus Griinden der Einfachheit wurde jedoch nur immer die 
nachsthohere Abtastrate fur jedes BandpaBfilter 48 gewahlt, welche der Formel = 2"-° 48 kHz erfullt, wobei f. die Da- 
ten- oder Abtastrate des einzelnen betrachteten BandpaBfilters 48 ist, und der Index n von 1 bis 5 lauft, wodurch sich die 
in Fig. 9 gezeigten Gruppierungen ergeben. Analog dazu ergibt sich die Gliedening der Filterbank 16. 20 in die funf Un- 

. terfilterbanken FBI bis FB5. Alle Filter, die auf der gleichen Abtastrate arbeiten, konnen cine gemeinsame Vorverarbei- 
tung durch das jeweiUge TiefpaBfilter 44b bis 44f und die jeweilige Dezimiereinrichtung 46b bis 46f nutzen. Das Zustan- 
dekommen der einzelnen Filtererregungskurven bzw. Filterfiinktionen wird nachfolgend detailliert dargestellt 

Alle in Fig. 5 gezeigten BandpaBfilter 48 sind bei einem bevorzugten Ausfiihrungsbeispiel mittels digitaler FIR-Filter 
realisiert, von denen jedes FIR-Filter 128 Filterkoeffizienten aufweist, die auf fiir Fachleute bekannte Art und Weise er- 

I rechnet werden konnen, wenn die Filterkurve bzw. die Filterfunktion bekannt ist. Dies kann durch eine schnelle Faltung 
erreicht werden, wobei alle Filter von FBO (42a) und Lpl (44b) (LP = Low Pass = Tiefpafi) gemeinschafUich eine FFT 
zur Berechnung der Filter benutzen konnen. Die Grenzfrequenzen der TiefpaBfilter 44b bis 44f mussen gewahlt werden 
urn zusammen mit der fur die jeweilige Unterfilterbank maBgeblichen Abtastrate keine Verletzung des Abtasttheorems 
zu bewirken. 

An dieser Stelle sei angemerkt, daB das Ausgangssignal 1, 2 241 jedes Filters, d. h. ein Testteilsignal bzw Refe- 

renzteilsignal, eine Bandbreite aufweist, die durch das entsprechende Filter, das das Teilsignal erzeugt hat, definiert ist. 
Diese Bandbreite eines einzigen Filters wird auch als Spektralabschnitt bezeichnet. Die Mittenfrequenz eines Spektral- 
abschnitts entspncht also der Mittenfrequenz des entsprechenden Bandfilters, wahrend die Bandbreite eines Spektralab- 
schnitts gleich der Bandbreite des entsprechenden Filters ist. Somit ist es offensichtlich, dafi sich die einzelnen Spektral- 
abschnitte bzw. Bandfilterbandbreiten uberlappen, da die Spektralabschnitte breiter als 0,05 Bark sind. (0,1 Baric ist der 
Abstand der Mittenfi-equenz eines Bandfilters zum nachsten Bandfilter.). 

Fig. 6 steUt die Konstruktion eines Verdeckungsfilters 48 beispielhaft an dem BandpaBfilter mit der Mittenfrequenz f 
von 1 .000 Hz dar. An der Ordinate von Fig. 6 ist die Filterdampfung in dB aufgetragen, wahrend die Abszisse die link^ 
bzw. rechtsseitige Frequenzabweichung von der Mittenfrequenz ^ in Bark auftragt. Der Parameter in Fig. 6 ist der 
SchaUdruckpegel eines durch das Filter gefilterten Audiosignals. Der Schalldruckpegel des gefilterten Audiosignals kann 
sich von 0 dB bis zu 100 dB erstrecken. Wie es bereits erwahnt wurde, hangt die Filterform eines modellmaBig gesehe- 
nen Bandfilters des menschUchen Ohrs von dem Schalldruckpegel des empfangenen Audiosignals ab. VWe es in Fig. 6 zu 
sehen ist, ist die Unke Filterflanke bei hohen SchaUdruckpegehi relativ flach und wird zu kleineren Schalldruckpegeln hin 
steiler. Dagegen geht die steilere Flanke bei kleineren Schalldruckpegeln schneUer in die RuhehorschweUe uber, die in 
Fig. 6 die geraden Fortsetzungen der einzelnen beispielhaften Filterflanken sind. 

Die Abhangigkeit vom SchaUdruckpegel des Audiosignals konnte durch eine Umschaltung zwischen verschiedenen 
Koeffizientensatzen der digitalen Bandfilter 48 der Filterbank erreicht werden. Dies hatte neben einer sehr hohen Kom- 
plexitat aber auch den Nachteil, daB das Verfahren sehr anfaUig gegen Veranderungen der Abhorlautstarke werden 
wurde. (Siehe Kh. Brandenburg und Th. Sporer. "NMR" und "Masking Flag": Evaluation of quality using perceptual cri- 
teria. In Proceedings of the 11th International Conference of the AES, Portland, 1992). 

Bei der gehorangepaBten Qualitatsbeurteilung von Audiosignalen gemaB der vorHegenden Erfindung wurde deshalb 
ein anderer Weg gewahlt. Aus den Filtericurven, die sich fiir unterschiedliche Schalldruckpegel ergeben wurden wird 
eine Kurve 50 fur den schlechtesten Verdeckungsfall oder "Worst-Case" gebildet. Die Worst-Case-Kurve 50 ergibt sich 
bei einer bestimmten Frequenzabweichung von der Mittenfrequenz f^, aus dem Minimalwert aUer Schalldruckpegelkur- 
ven in einem bestimmten Nennschalldruckpegelbereich, der sich beispieisweise von 0 dB bis 100 dB erstrecken kann 
Die Worst-Case-Kurve erhalt so nahe der Mittenfrequenz eine steile Hanke und wird mit wachsendem Abstand zur Mit- 
tenfrequenz flacher, wie es durch die Kurve 50 in Fig. 6 angedeutet ist. Wie es ebenfalls aus Fig. 6 zu sehen ist, ist die be- 
zugUch der Mittenfrequenz f^, rechte Filterflanke eines BandpaBfilters 48 abgesehen von der RuhehorschweUe nur ge- 
nng von dem SchaUdruckpegel des gefilterten Audiosignals abhangig. D.h., daB die Neigungen der rechten Kurvenflan- 
ken fur einen SchaUdruckpegel von 0 dB bis zu einem SchaUdruckpegel von 100 dB nahezu gleich sind. 

Bei der gehorangepaBten Qualitatsbeurteilung von Audiosignalen gemaB der vorUegenden Erfindung wird femer der 
EinfluB der AuBen- und Mittelohrubertragungsfunktion und des intemen Rauschens, das beispieisweise durch den Blut- 
su-om im Ohr verursacht wird, berucksichtigt. Die sich daraus ergebenden Kurven fur einzelne SchaUdruckpegel von 
0 dB bis 100 dB sind m Fig. 7 dargesteUt. Im Gegensatz zu Fig. 6 ist bei Fig. 7 an der Abszisse der Spektralbereich in Hz 
aufgetragen und nicht die Frequenzskala in Baric, welche auch Tonheitsskala bezeichnet wird. Mathematisch formuUert 
kann die AuBen- und Mittelohr-Ubertragungsfimktion und das interne Rauschen des Ohrs durch folgende Gleichung mo- 
deUiert werden: 

= + l «2(B5fe7)-" + 0.5 . .0-3(^)< 

Die GroBe a<j(f) stellt die Dampfiing des Ohrs uber dem gesamten Frequenzbereich dar und ist in dB angegeben 
Die Verdeckungskurven oder Filterkurven fiir die einzelnen BandpaBfilter 48 konnen durch folgende mathematische 
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Gleichung abhangig von der MiUenfrequenz und abhangig von dem Schalldruckpegel L modelliert werden: 

Die einzelnen in der Gleichung veraendeten GrSBen sind im naclifolgenden aufgesteUl: 

1"^:^"— derMi«nfte,nen.f„d^ 

= Mittenfrequenz eines BandpaB filters; 
L = Schalldruckpegel des gefilterten Audiosignals; 
Abrundungsfaktor C2 = 0,1 ; 
Steilheit der unteren Flanke = 27 (dB/Bark); 
Steilheit der oberen Flanke: 

S2(f„, L) = 24 + 230 Hz/f„ - 0,2 • IVdB; 

Konstante C^^: 

Cl(fm.L) = (Si - S2(fnirL)/2 • 1 C2/(Si • S2(fn„L))'; 



Konstante AoCfm/D = "^^2 • • S2(fnirL)V 

Die Umrechungsgleichung von der Frequenzskala in Hertz zur Frequenzskala in Bark lautet folgendermaBen: 

^'2Barfc(/) ^ 13 . 3^j.clau(0.76jo5^) + 3.5 ■ &rcta,o.i{j^^f) 

Wird in die Verdeckungskurve A eine virtuelle RuhehorschweUe bei -10 dB miteinbezogen, so ergibt sich eine Grenz- 
verdeckungskurve Aum. welche folgendermaBen gegeben 1st: 

^^'Slfob'^g^rvTiel b'^^^^^^ ftr die Verd«:kungskurve inklusive der virtueUen Ruhehor- 

schw U^z— In rnit der Einbeziehung der AuBen- und Mittelohr-T^eJragungsfunkU^^^^ hefert dxe erweUerte 
Grenzverdeckungskurve A„„, die noch von dem SchaUdruckpegel des Audiosignals abhangt. 

Au„(f, fn,. L) = (Hz2Bark(f„) - Hz2Bark(f), f„, L) - ao(f) 

Wie es bereits erwahnt wurde, ist es zu aufwendig, for jeden SchaUdruckpegel dne -^-^^'^-f^^ ribTdSleS- 
kim^skurve zu wahlen weshalb eine Worst-Case-Kurve errechnet wird. Die Worst-Case-Kurve A^c(f. U S^btchc letet 
Sch^^^lt D^^^ eines Filters mit der Mittenfrequenz f„ bei der aktueUen Frequenz f m Hz an. Die mathe- 
matische FormuUerung der Worst-Case-Kurve A^^ lautet folgendermaBen: 

^Fia Vzel.f ef A^ikkg'i^ Sr Voii?htulgS. des Verfahrens zur gehorangepaBten Qualitatsbeurteilung von 
Au^oirJfn gli^^^^^^^ - bereits imZusammenhang mit Fig 5 ^e-hnje -^^^^^^^ 

Si=e-^r;S^«td1SnJ^^^^ 

Zra,^ w?khi ernSS^S tausgralor die Ube, die Dane, eines SchaUereignisses anflaufcnde E„e,g,= auf inKgne^ 

~d-r„^st"=X".^^^^^^^^^^^^ 



^ DE 196 47 399 CI ^ 

10 onsschweUe von 2,3 dB eine gewisse Unsifhe^h de7DeteS^ 5' .^^ ^le eigentliche Detekti- 

lichkeitskurve venvendet wird. E ne Pe^diff^renz ^0^?^^^^^ weswegen die m Fig. 10 gezeigte Wahi^chein- 

onsberechnungseinrichtungen 52 ebenfalls ein striellerzei.lich^fn daB die Eingangssignale fiir die Detekti- 

onsberechnunlseinrichtunlen 52 sind l^t eb^S^J^^^^^^^ Die Ausgangssignale der Detekti- 

20 entsprechendenBandpa6filters48zu jedemZeitpunktbzw die fur jeden Frequenzbereich des 

wendeKs Tests gnal in Fie. 1 1 eezeisl isL In, ohm„ i- ,' lur em bestinimtes uitemational ver- 

g™ saltan vomGehim hundenprozentig erfaBbare Cofie^gi b^TiSu^ftht;?. ,^ 
!5 renzsignal is. in der Technik bekannl n„d fl'dct sich auf der cSa5>SsOAM -^™?n i^^^? verwendele Refe- 
TonqualMlsbeurteilnngsraaterial) auf der Spur 10 nnd wSAMTr^ck ^TbltT^ ? " "'"'i'l = 

fehlerhaft codienes bzw. decodiertes Tonsi^ial Si^vZZTd^^'^^^ I ' ' "^T ™ "''^'"•tlich 

lonceUo gespiel, wird und absichllich fehk*5t?<XnTnd te^eS*w^ ^ ™'°°"» 

» g-SSKS"'"^--" .ndebensoa„cbi„K.g. n.^.J.tf^^f^ZlZ'lfS^^^^^^^^ 

De?^£z^rbt^sr„t:s^Sgtts:s:s^ 
Srr:SstSiS^^^^ 

keJlelcrrrX" dt iTeSSe^X^'-r"- "5?" """■io-wabr.cbeinUch- 
scheinlichkeilgewahlS weld^rduSTdfe f^^rT T, f F^S-^^En-PPendetekUonswahr- 

onswahrscheinlichkd, S .1 S^B SSl^l^Tj ^''S^^ "i^- Gruppende.ek.i- 

eine Storung wahrnehmbar ist Frequenzgruppe nnrfassenden Bereich um ein Filter k 

..iS3rsSi.rzt'r,f*^^^^^^ 

^t zu wahtan, Ssi=rFS,;e„r,Scte e„^^^^^ b"«l.l.arterDet=ktio„swahrscbeinlichkeile„ der- 

uberei„,U„m;n. DadurcbZ^ a„f vo^tuh^JwdST F,e,n=„.gruppe„ in, wesenUicben 

werden.™ei„e„ebersnbJektive„™re.„dr„.kvo„l:^;rre=™sT4^^^^^^^^^^^^^ 
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Fie 12 mit Fie 1 1 stellt sich heraus, daB eine gruppenweise Zusammenfassung der Detektionswahrscheinlichkeiten 
offenba^ daB auch bei hoheren Frequenzen als in Fig. 1 1 wahrscheinlich Codierungs- bzw Decodierungsfehler des Au- 
d^testsienals gehort werden konnen. Die Gruppendetektion, welche in Fig. 12 gezeigt ist, Iiefert also eine realistischere 
Oualitatsbeurteilung von Audiosignalen als die lokale Detektion in Fig. 11. da hier die Frequenzgruppenbildung im 
meSchlichen Ohr simuliert wird. Die Unterschiede nebeneinander Uegender Filterausgangswerte (wobei die Unter- s 
schiede kleiner oder gleich einer Frequenzgruppe gewahlt werden), werden also zusanamen ausgewertet und eigeben ein 

"Si^arkri^ts 

werden Die Pegel des Audioreferenzsignals bzw. des Audiotestsignals konnen ebenfalls in drei AbschnUte unterte, It 
werdenVstiUe; leise: bis 20 dB; laut: uber 20 dB). Somit ergeben sich neun verschiedene TVpen. denen ein FiUerabtast- ,o 
wert angehoren kann. Zeitabschnitte, in denen aUe Filterausgangswerte beider Eingangssignale dem Typ Shlle angeho- 
Ten mu!sen nicht weiter betrachtet werden. Aus den ubrigen sechs werden MaBe fiir die Detektionswahrschemlichkeit 
des Unterschieds zwischen den Eingangssignalen fur jeden ZeitschUtz bestinunt. wie es oben erwahnt wurde^Zusatelich 
z^der Smmung der DetektionswahrscheinUchkeit kann auch eine sog. S torlautheit definiert werden, die ebenfaUs mit 
der Pegeldifferen^ die durch die Detektionsberechnungseinrichtungen 52 berechnet wird, konrehert ist, und angibt, wie 15 
stark ein Fehler storen wird. AnschUeBend werden getrennte Mittelwerte der Storlautheit und der Detektionswahrschein- 
Uchkeit fur jeden der sechs Typen berechnet. , • J- on ui ♦ V 

Femer werden Kurzzeitmittelwerte iiber einen Zeitraum von 10 ms berechnet, wobei die 30 schlechtesten Kuizzeit- 
mittPlwerte eines komoletten Audiosignals gespeichert werden. Die Mittelwerte wiederum uber diese 30 Worst-Case- 
wiS^S d^Gesr^elwe^^ ergeben zusaLien den Horeindruck. Hierbei ist anzumerken, daB Wo^-Case-Werte 20 
sinnvoU sind, wenn Storungen sehr ungleichmaBig verteilt sind. Gesamtmittelwerte sind Jg^g^™^,^' ^^^^^ 
kleine jedoch horbare Storungen auftreten. Die Entscheidung, ob die Gesamtmittelwerte oder die Woret-Case-Werte zur 
sSSiiung des Audiotestsignals herangezogen werden sollen, kann iiber eine Extremwert-Verknupfiing dieser beiden 

^^SSe7b^clS?Snl7eSr"^ Qualitatsbeurteilung von Audiosignalen bez«g sich auf monoaurale bzw 25 

Mono-Audiosignale. Die gehorangepaBte Qualitatsbeurteilung von Audiosignalen gemaB der vorkegenden Erfindung 
em^tucht jedih auch eine Beurteilung von binauralen oder stereophonen Audiotestsignalen durch eine mchtkneare 
V^Sbeitung zwischen der Filterbank 16 bzw. 20 und der Detektion in den DetekUonsberechnungseinnchtungen 52^ 
Wie es mrFachleute bekannt ist, weisen stereophone Audiosignale jeweils einen hnken und einen rechten Kanal auf Der 
iTnke und rechte Kanal des Audiotestsignals bzw. des Audioreferenzsignals werden jeweils getrennt nuttels «^nes nicht- 30 , 
linearen Elements, das Transienten frequenzselektiv hervorhebt und stationare Signals vemngert^ gefiltert_ Die Au^- 
g^Stfgnale dieser Operation werden im nachfolgenden als das modifizierte Audiotestsignal bzw. das modifizier^e Au- 
dioreferenzsignal bezeichnet. Die Detektion in den Detektionsberechnungseinnchtungen 52 wird nun nicht mehr einma^, 
wiTes vorher beschrieben worden ist, sondem viermal durchgefuhrt, wobei jeweils folgende Eingangssignale abwech- 
selnd in die Detektionsberechnungseinrichtungen 52 eingespeist werden: a H-^wtc4<r„.i=- 

Detektion linker Kanal (DIL): Unker Kanal des Audioreferenzsignals mit hnkem Kanal des Audiotestsignals. 
ers e De eSon Ser Kanal (DIR): rechter Kanal des Audioreferenzsignals mit rechtem Kanal des Audiotestsignak; 
TwSte DeteTon^ nker Kanal (D2L): Unker Kanal des modifizierten Audioreferenzsignals mit hnkem Kanal des modi- 

1^T^^TS£TLx (D2R): rechter Kanal des modifizierten Audioreferenzsignals mit rechtem Kanal des 40 

"tntn1i^£S;^ndDlRbzw.D2LundD2Rwirdnunjeweilsder^^^ ^ 
derSt entstandenen Werte uber einen gewichteten Mittelwert vereinigt werden, urn die Qualitat des stereophonen Audio- - 
testsignals zu beurteilen. ^5 

Patentanspriiche 

1. Verfahren zur Qualitatsbeurteilung eines Audiotestsignals (141 das durch Codierung und Decodierung von ei- 
nemAudioreferenzsignal(12)abgeleitetist,mitfolgendenSchritIen: . , ■ , tt-,. K.„vn/:v 

Sriegen des Audiotestsignals (14) gemaB seiner spektralen Zusammensetzung mittels ein^ ersten Filterbank (16) 50 
Zs einander sich frequenzmaBig uberlappenden, Spektralabschnitte definierenden Filtem ^'^.^^l^^^^^^^f;^ 
weichenden Filterfunktionen, die jeweils aufgrund der Erregungskurven des menschlichen Ohrs bei derjeweibgen 
Filtermittenfi-equenz (f„) festgelegt sind, in Audiotestteilsignale (22); 

l£lZT£Z6iorcf^.n^inI (12) gemaB seiner spektralen Zusammensetzung mittels einer mit der ersten Fil- 
terbank (16) ubereinstimmenden zweiten Filterbank (20) in Audioreferenzteilsignale (18); 

spektralabschnittsweises Bilden der Pegeldifferenz zwischen den zu gleichen Spektralabschnitten gehongen Audio- 
testteilsienalen (22) und Audioreferenzteilsignalen (18); und . f^^^^ 

speSSfbschnittsweises Bestimmen einer Detektionswahrscheinlichkeit fur die Erfassung eines Codierungsfehlers 
des Audiotestsignals (14) in dem betreffenden Spektralabschnitt aufgrund der jeweihgen Pegeldifferenz. 

2 WrfXS nach Anspruch 1, bei dem die Erregungskurve eine AuBen- und Mittelohr-Ubertragungsfunktion und 60 
internes Rauschen des menschlichen Ohrs berucksichtigt. 

3 Verfahren nach Anspruch 1 oder 2, bei dem die Erregungskurven der Filter (48) der ersten und der zweiten Fil- 
terbank (16. 20) gemaB der Mittenfrequenz der Filter festgelegt sind. um die zu hohen Frequenzen hin abnehmende 
Frequenzauflosung des menschlichen Ohrs anzunahem. 

4 Verfahren nach einem der Anspriiche 1 bis 3, bei dem die Erregungskurven der Filter (48) der ersten und der 65 
zweiten Filterbank (16, 20) gemaB dem Schalldruckpegel des Audiotestsignals bzw des Audioreferenzsignals (12) 
J^stgelegt sind, um bei hoheren Schalldruckpegeln flachere Filterflanken und niedngere Ruhehorschwellen als bei 
niedrigen Schalldruckpegeln aufzuweisen. 
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bei^dem das Audiotestsignal und das Audioreferenzsignal Ster^osignale mit einem linken und einem rechten Kanal 

AuSnttT-f'-^^t" ^x^""^' ""'^ Audior^ferenzteilsignalen des linken Kanals. 

Audiotestteilsignalen des rechten Kanals und Audioreferenzteilsignalen des rechten Kan^s 

— rten Audiotestteilsignalen des linken Kanals und n^odi^enen AuSttre^ltignal^^ des Hnken Ka- 

^t^tu^Tei^""''''""^^^'^"^^" ^-^^ modifizierten Audioreferenzteilsignalen des rechten 

16. Verfahren nach Anspruch 15 

^^',1"^^ "='''''*"=f'» W=« -l^i Audioleslsignal und d« schlechteste Wert to, das modifiziarte Audiotesl^i 
schnme defim.„„d= F.Uer ™,i .„„ei„a„der abw=iche„de„ Fil,erfu„k,io„e„ auftveis., i.ZT^g^^^'t- 



^ DE 196 47 399 

A u 1Q H^r ,15 p Model Heruneseinrichtune (24) eine Integrationseinrichtung zum 

20. Vorrichtung nach Anspruch 19. bei f / 

des Audioreferenzteilsignals "^^^.^^^^^^^^^^^ Mel^ahl von Gruppenauswertungseinrich- 

Empfindung des ist, daB eine durch die gemeinsam ausgewer- 

teten Spektralabscnniue geouu ^ ^ j Globalauswertungseinnchtung (54) zum ge- 

Audiotestsignals (14) zu erreichen. ^ 

Hierzu 7 Seite(n) Zeichnungen 
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